红葡萄酒数据质量分析报告
========================================================
选择的是红葡萄酒质量数据集
数据集包含1,599 种红酒,以及 11 个关于酒的化学成分的变量。⾄少 3 名葡萄酒专家对每种酒的质量进⾏了评分,分数在 0(⾮常差)和10(⾮常好)之间。
哪个化学成分影响红葡萄酒的质量?
通过str查看数据结构:
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
四分位
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
大部分葡萄酒质量分布集中在5和6之间.集中在中间部分
##
## 3 4 5 6 7 8
## 10 53 681 638 199 18
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
红酒酒精含量普遍不高,属于低度酒,大概在9%~12%之间。
选取水密度wine$density在25%以下的样本,其酒精浓度alcohol的分布于上面的总体数据酒精度数分布不同。 相对于总体数据的酒精度数分布,高度数的红酒更多。 可以看到水密度与酒精浓度是相关的,具体的相关系数后续继续分析。
大部分pH值在3.0-3.5之间。
sugar值大部分集中在1-3之间。
固定酸度大部分集中在6-8之间。
盐分浓度集中在0.05-0.1之间。
总二氧化硫中包含了游离二氧化硫和结合二氧化硫,数据集中只有游离二氧化硫数据,考虑到结合二氧化硫可能会影响到红酒品质,为了方便,添加一个新的变量:结合二氧化硫 bound.sulfur.dioxide
从数据集中的介绍中了解到如果total sulfur dioxide即总二氧化硫量大于50ppm的话,就会感受到二氧化硫的味道,但是看下图的分布,即使选取的样本的游离二氧化硫量大于50ppm,其品质也没有特别低,但是样本量太小,所以并不能说明二氧化硫大于50这种性质,与品质之间相关度低。具体还要后续分析。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
下图可以发现游离二氧化硫浓度,大部分介于2-40之间。
红葡萄酒的密度与水十分接近,呈现正态分布
红酒中的硫酸盐添加剂主要分布在0.4~0.8之间,近似正态分布。
本数据集中最主要的特性是红酒品质quality,希望能通过探索红酒的其他属性如酸度,残糖以及pH值等元素,来建立一个模型预测红酒的品质。 ### 你认为数据集内哪些其他特征可以帮助你探索兴趣特点? 对葡萄酒的平衡起着关键性影响的元素,包括:甜度、酸度、果味、酒精以及单宁。这些影响元素在数据集中呈现为:
residual.sugar,残留糖分较高的葡萄酒,尝起来会有甜腻的口感,但是如果糖分不足又会使得葡萄酒变得尖酸干涩难以下咽。citric.acidalcohol,过高的酒精度会给喉咙带来烧灼感优先分析上述元素对红酒品质的影响。
为了后续分析方便,通过total.sulfur.dioxide总二氧化硫量和free.sulfur.dioxide游离二氧化硫,计算得到bound.sulfur.dioxide结合二氧化硫。
暂未发现异常分布的数据,数据也是完整无丢失的。
citric.acid与红酒品质quality之间的点阵图之前凭直觉认为柠檬酸与红酒品质关联性强,但是通过下面的图形和输出的相关度分析,存在关联但是关联性不强。
##
## Pearson's product-moment correlation
##
## data: wine$citric.acid and wine$quality
## t = 9.2875, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.1793415 0.2723711
## sample estimates:
## cor
## 0.2263725
sulphates与二氧化硫量之间的关联从上图看,两者似乎没有关联关系,为了进一步验证,计算两者之间的相关系数,分别为0.04和0.05,可以知道硫酸盐对二氧化硫的影响不大:
##
## Pearson's product-moment correlation
##
## data: wine$free.sulfur.dioxide and wine$sulphates
## t = 2.0671, df = 1597, p-value = 0.03888
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.002643125 0.100424406
## sample estimates:
## cor
## 0.05165757
##
## Pearson's product-moment correlation
##
## data: wine$total.sulfur.dioxide and wine$sulphates
## t = 1.7178, df = 1597, p-value = 0.08602
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.006087119 0.091774762
## sample estimates:
## cor
## 0.04294684
alcohol与密度density之间的关系从上图看两者存在较强相关性,酒精度数越高,密度就越低,其相关系数为-0.496,存在较强的相关关系:
##
## Pearson's product-moment correlation
##
## data: wine$alcohol and wine$density
## t = -22.838, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.5322547 -0.4583061
## sample estimates:
## cor
## -0.4961798
从上述图形上看,pH值越高挥发性酸度就越大,固定酸度和柠檬酸度越小。
如下是不同红酒品质下,不同酒精度数红酒的数量分布,从下面的分布图中可以看出: - 大部分红酒品质在5-6之间 - 随着度数增加,品质高的红酒比例增加
quality下,观察柠檬酸度citric acid的数据概要根据数据集的介绍了解到,citric acid会增加红酒的鲜度,观察下面的统计结果,随着红酒品质的提升,其柠檬酸度整体也在增加。
## wine$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0050 0.0350 0.1710 0.3275 0.6600
## --------------------------------------------------------
## wine$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0300 0.0900 0.1742 0.2700 1.0000
## --------------------------------------------------------
## wine$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2300 0.2437 0.3600 0.7900
## --------------------------------------------------------
## wine$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2600 0.2738 0.4300 0.7800
## --------------------------------------------------------
## wine$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.3050 0.4000 0.3752 0.4900 0.7600
## --------------------------------------------------------
## wine$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0300 0.3025 0.4200 0.3911 0.5300 0.7200
从下图可以看到,品质一般的红酒(quality为5和6),其柠檬酸度低的较多,而quality为7和8的红酒,相对来说,柠檬酸度高的比例较高。
分析上面的散点矩阵图,质量
quality与挥发性酸度volatile.acidity相关系数为0.405 ,与酒精度数alcohol的相关度为0.436,有较强的相关关系。
下面分别进行双变量分析:
(1). 质量与酒精度数的图如下,下图可以看出,品质好的红酒,其度数普遍高于品质差的红酒。
(2). 上面相同的方式,质量与挥发性酸度的图如下,从图上可以看出,品质好的红酒其挥发性酸度普遍低于品质低的红酒。
这部分集中探索了两个变量的分布关系,例如 - 柠檬酸与红酒品质的分布,硫酸盐与二氧化硫的分布,之前凭直觉认为两者的关联性很强,但经过绘图与分析发现直觉是错误的,并没有太强的关联关系。 - 酒精度数与密度的分布,以及各种酸度与PH的分布,与预想的结果类似,这些分布的两个变量之间存在较强的相关性。 - 酒精度数与红酒品质的分布,这个结果是没有料到的,从图形上看,酒精度数对红酒品质的影响很大。
通过数据集中的介绍,以及主观的判断,觉得关联关系强的变量,经过分析,事实上没有太强的关联关系。说明在数据分析过程中,不能凭主观的判断,必须通过客观的统计分析才能得出正确的结论。 ### 你是否观察到主要特性与其他特性之间的有趣关系? 从数据集的介绍中了解到,硫酸盐是一种用于产生二氧化硫的添加剂,但是经过绘图和分析,硫酸盐与总二氧化硫,硫酸盐与游离二氧化硫之间相关关系非常小,这一点比较意外。 ### 你发现最强的关系是什么? 最强的关系是酒精度数与密度的关系。
从上面双变量分析中可知,挥发性酸度和酒精度对红酒品质影响较大,下面将这三个变量放在一个图中进行分析,从下图可以看出,随着红酒品质的升高,分布逐渐集中到左上区域,即品质越高,酒精度约高,挥发性酸越低。
下面再加一个变量硫酸盐:
从上面的图形很难看出硫酸盐对品质的影响。下面将通过quality再生成一个变量grade,分成三个level,分别为low(4分以及以下),medium(5和6),high(7分及以上),再重新绘图:
##
## low medium high
## 63 1319 217
上图中,在红酒等级为high时,其冷色调的点密度较等级为low和medium时高,说明从整体上,硫酸盐高的红酒,其品质也更高。
根据数据集介绍,硫酸盐是一种会产生二氧化硫的添加剂,但是经过下图的分析,各个品质的红酒中,游离二氧化硫与总二氧化硫有很强的正相关,但是硫酸盐与游离二氧化硫和总二氧化硫之间并无明显相关性。
根据数据集介绍,密度与酒精浓度有关,下面是在不同品质下,酒精度数与水密度之间的分布图: - 红酒品质越高,酒精度数整体越高 - 酒精度数越高,水密度整体越低
通过线性模型,能基于红酒的各种化学特征,对红酒品质进行预测。 按照特征与品质之间的相关强度,递增的方式建立模型。
##
## Calls:
## m1: lm(formula = quality ~ volatile.acidity, data = wine)
## m2: lm(formula = quality ~ volatile.acidity + alcohol, data = wine)
## m3: lm(formula = quality ~ volatile.acidity + alcohol + sulphates,
## data = wine)
## m4: lm(formula = quality ~ volatile.acidity + alcohol + sulphates +
## citric.acid, data = wine)
## m5: lm(formula = quality ~ volatile.acidity + alcohol + sulphates +
## citric.acid + total.sulfur.dioxide, data = wine)
## m6: lm(formula = quality ~ volatile.acidity + alcohol + sulphates +
## citric.acid + total.sulfur.dioxide + chlorides, data = wine)
## m7: lm(formula = quality ~ volatile.acidity + alcohol + sulphates +
## citric.acid + total.sulfur.dioxide + chlorides + density,
## data = wine)
##
## ==========================================================================================================================
## m1 m2 m3 m4 m5 m6 m7
## --------------------------------------------------------------------------------------------------------------------------
## (Intercept) 6.566*** 3.095*** 2.611*** 2.646*** 2.843*** 2.985*** -0.953
## (0.058) (0.184) (0.196) (0.201) (0.205) (0.206) (11.990)
## volatile.acidity -1.761*** -1.384*** -1.221*** -1.265*** -1.222*** -1.104*** -1.114***
## (0.104) (0.095) (0.097) (0.113) (0.112) (0.115) (0.120)
## alcohol 0.314*** 0.309*** 0.309*** 0.295*** 0.276*** 0.280***
## (0.016) (0.016) (0.016) (0.016) (0.017) (0.020)
## sulphates 0.679*** 0.696*** 0.721*** 0.908*** 0.903***
## (0.101) (0.103) (0.103) (0.111) (0.112)
## citric.acid -0.079 -0.043 0.065 0.044
## (0.104) (0.104) (0.106) (0.124)
## total.sulfur.dioxide -0.002*** -0.002*** -0.002***
## (0.001) (0.001) (0.001)
## chlorides -1.763*** -1.747***
## (0.403) (0.406)
## density 3.923
## (11.944)
## --------------------------------------------------------------------------------------------------------------------------
## R-squared 0.153 0.317 0.336 0.336 0.344 0.352 0.352
## adj. R-squared 0.152 0.316 0.335 0.334 0.342 0.349 0.349
## sigma 0.744 0.668 0.659 0.659 0.655 0.651 0.652
## F 287.444 370.379 268.912 201.777 166.962 143.910 123.298
## p 0.000 0.000 0.000 0.000 0.000 0.000 0.000
## Log-likelihood -1794.312 -1621.814 -1599.384 -1599.093 -1589.749 -1580.192 -1580.138
## Deviance 883.198 711.796 692.105 691.852 683.814 675.689 675.643
## AIC 3594.624 3251.628 3208.768 3210.186 3193.499 3176.384 3178.276
## BIC 3610.756 3273.136 3235.654 3242.448 3231.138 3219.401 3226.670
## N 1599 1599 1599 1599 1599 1599 1599
## ==========================================================================================================================
当模型选取6个参数时有最小的AIC值,加入第七个参数后其AIC又开始增加。
最终模型应该是如下: quality = 2.985 - 1.104*volatile.acidity + 0.276*alcohol + 0.908*sulphates + 0.065*citric.acid - 0.002*total.sulfur.dioxide - 1.763*chlorides
通过上面的单变量和双变量分析,都没有发现对红酒品质产生决定性影响的变量,通过对多变量的分析,观察到了如下影响到红酒品质的关系: - 挥发性酸越低,红酒品质越高 - 硫酸盐越高,红酒品质也越高 - 酒精浓度越高,红酒品质也越高
另外,存在如下的相互促进的特性: - 酒精浓度越高,密度越低 - 游离二氧化硫越高,总二氧化硫越高 因为这些特性之间存在某种关联,会构成相互促进的特性也合乎逻辑。
通过上面的分析,了解到挥发性酸,硫酸盐,以及酒精浓度是对红酒品质影响最大的变量,前两种分别是酸味和咸味,后一种作为酒类最重要的组成元素,这三类味觉对红酒品质影响最大,这也符合常识。
针对上面的quality/alcohol(plot-2)和quality/volatile.acidity(plot-2),能够发现quality与alcohol和volatile.acidity之间的一些变化趋势,下面将红酒品质处理成了三个等级分别为low(0,4], medium(4,6], high(6,8],另外对density和citric.acid也做同样的绘图。 从四个图形中能得到如下结论: - 大部分的红酒其品质居中 - 红酒品质越高,挥发性酸volatile.acidity整体上越低 - 红酒品质越高,酒精度数alcohol,柠檬酸 citric.acid和硫酸盐sulphates整体上越低
在不同品质下,酒精度数与水密度之间的分布图,从图中可以看出: - 红酒品质越高,酒精度数整体越高 - 酒精度数越高,水密度整体越低
在上面的双变量分析中,探讨了红酒品质与酒精浓度的关系,但是该图红酒品质分级过多,不是一目了然。下面使用综合后的品质属性grade,与酒精浓度进行绘图。
如下是不同红酒品质下,不同酒精度数红酒的数量分布,从下面的分布图中可以看出: - 大部分红酒品质居中 - 随着度数增加,品质高的红酒增加
本数据集包含了1599条记录,11个变量,通过分析这些变量与品质之间的相关关系,判断变量是如何影响红酒品质的。 但是这些变量中没有哪种变量能够决定性的影响红酒品质,最终通过多个变量的分析,判断如下四种变量最能影响红酒品质: - 酒精度数,与品质呈正相关关系,度数越高品质趋向升高 - 挥发性酸,与品质呈负相关关系,酸度越高品质趋向降低 - 硫酸盐,与品质呈正相关关系,硫酸盐越多品质趋向升高 - 柠檬酸,与品质呈正相关关系,酸度越高品质趋向降低,通过数据分析之前,认为柠檬酸与品质应该是强相关的,但是经过分析之后发现其相关度并不高
另外,同样影响味觉的甜味和咸味,即变量残糖residual.sugar和氯化物chlorides,其对品质的影响微弱,可见得到一个结论需要科学的分析,不能凭直觉判断。
后续如果引入机器学习进行分析,另外加大数据量,应该能更精确的分析哪些变量对红酒品质的影响.